花费 6 ms
强化学习(David Silver)7:策略梯度算法

1、简介 1.1、PolicyBased方法优劣 优势: 更好的收敛特性 在高维或者连续的action空间里面有效 可以学习随机策略 劣势: 收敛到局部最优,而非全局最优 policy ...

Sat Oct 21 03:52:00 CST 2017 0 1060

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM